史丹佛Onyx晶片問世稀疏運算突破AI效能與能耗瓶頸

#史丹佛大學

#Onyx晶片

#稀疏運算

#AI硬體

#能耗優化

Apr 29, 2026 3:46 PM Wednesday

商傳媒｜林昭衡／綜合外電報導

摘要

隨著大型人工智慧模型規模持續擴大，其龐大能耗與運算時間成為挑戰。史丹佛大學研發出Onyx硬體加速器，透過稀疏運算技術，大幅提升AI處理效率並降低能耗，為永續發展的AI硬體指明新方向。

隨著人工智慧（AI）大型語言模型（LLM）的規模持續擴大，運算所需的龐大能耗與處理時間，已成為產業發展的關鍵挑戰，同時也加劇了碳足跡問題。為此，全球研究團隊正積極探尋解決方案，其中「稀疏性」運算被視為一條可兼顧高效能與節能的新路徑。

稀疏性是指在許多AI模型的參數中，有大部分數值為零或極接近零，在不影響精確度的前提下可被視為零。這項特性為運算帶來顯著的節省機會：透過跳過對零值的加法或乘法運算，以及僅儲存非零參數，能有效減少記憶體佔用與運算量。據《IEEE Spectrum》報導，兩年前Cerebras公司已在Meta的Llama 7B模型上展示，高達七到八成的參數可設為零而不損失精確度，這項概念亦適用於ChatGPT和Claude等模型。

然而，現有的多核心中央處理器（CPU）與繪圖處理器（GPU）等主流硬體，並未能充分利用稀疏性優勢。儘管蘋果（Apple）的A14和M1晶片透過改良預取器，提升了稀疏運算中的間接查詢速度，但通用型處理器在設計上仍存在固有開銷。為全面發揮稀疏性潛力，AI硬體、底層韌體和應用軟體都需重新架構。

史丹佛大學的研究團隊研發出一款名為Onyx的硬體加速器，專為稀疏性運算從零開始設計。Onyx是首款可程式化加速器，能同時支援稀疏與密集（非稀疏）運算，大幅加速兩領域的關鍵操作。該團隊指出，Onyx晶片在處理稀疏工作負載時，平均能耗僅為一般CPU的七十分之一，運算速度則快上八倍。若以「能量延遲積（Energy-Delay Product, EDP）」衡量，Onyx相較於使用專用稀疏程式庫的Intel Xeon CPU，效能提升高達565倍。

其他企業也致力於加速稀疏機器學習的硬體開發。例如Cerebras的Wafer Scale Engine，在LLM上展現高達七成的稀疏度，但主要支援權重稀疏性。Meta的MTIA v2加速器則聲稱稀疏運算效能較MTIA v1提升七倍，但目前僅針對矩陣乘法公布支援資訊。相較之下，Onyx能夠處理結構化與非結構化的稀疏性，並具備可程式化彈性，使其能適用於多種操作。

史丹佛大學團隊表示，Onyx架構是將稀疏與密集運算整合於單一晶片上的重要一步，同時也開啟了新的演算法思維。此類稀疏加速硬體不僅能提升AI的效能與能源效率，更將激勵研究人員探索具備突破潛力的新演算法。該團隊目前正著手開發基於Onyx的下一代晶片，以支援更廣泛的數學運算，並優化晶片上密集與稀疏加速器架構的整合，期盼能有效管理AI日漸增長的運算時間、成本及環境影響。

史丹佛Onyx晶片問世 稀疏運算突破AI效能與能耗瓶頸史丹佛Onyx晶片問世 稀疏運算突破AI效能與能耗瓶頸

史丹佛Onyx晶片問世稀疏運算突破AI效能與能耗瓶頸